收录于话题
#大选审计
1个
【摘要】方舟子和Eric(笔名“E闻”)应该学习下民调的专业知识,他们都把亚利桑那州(AZ)目前所获选票完全当作有效选票,只关注了机器点票与人工点票计数方式的结果差异,却根本没意识到,通过此次审计发现,现有选票中包含了大量无效选票(超过5.3万张)。如果这些无效选票被剔除,进入统计过程的选票总数就会变化,结果也势必将改变。至于为什么审计报告这次没有公布经过数据清洗之后的统计结果,那是因为,在此次法医式审计开始之前,共和党与民主党达成了此次不对有问题选票的签名进行核实的协定。从而导致核查人员目前还无法确定在那53304张问题选票中,究竟需要剔除多少张不合格的选票?但是随着审计报告的公布,州参议院即将进入到对这些有问题选票的签名进行复核的阶段,那时,真正的选举结果就会呼之欲出了。文章首发陌上电报频道: https://t.me/MoshangUS
本文作者:圣言的倾听者 琥珀 加目
01. 民调的历史
全世界最早的民意调查应该是出现在1824年7月,当时,美国哈里斯堡的《宾夕法尼亚人报》在读者中进行了第一次“无党派偏见的”大选模拟投票,结果显示,安德鲁·杰克逊获得335票,亚当斯159票,克雷获得19票,克劳福德获得9票。不久,北卡罗来纳州的《罗利星报》也进行了一次类似的调查,得到了相似的结果,而这两个调查结果与3个月后的总统大选结果几乎完全一致,只不过获得最多普选票的杰克逊最后并没有当上总统(与2016年希拉里的情况相似)。自此之后,民意调查逐渐流行起来,目前,全世界最引人注目的民调,应该就是美国总统的大选了。因为,在某种意义上,美国总统的选举就是一次民意的选择和表达,只是它采取了用选票记录民意的方式,或者说,选票就是一份正式的、具有法律意义的调查问卷。民意调查从诞生至今,已将近200年的历史,在这个过程中,民意调查的调查内容、调查方式和调查手段都在不断丰富和变化,并逐渐发展成一门实证性学科,而且,从中还演变出社会调查、市场调查、舆论调查、流行病调查等分支学科。同时,它与统计学、概率论、数学建模等数理统计学科也越来越紧密地结合起来。目前在一些国家高校里,与民调相关的社会(市场)调查方法论、统计学、数学建模等课程,已经成为社会学专业、市场营销学专业、新闻学专业、卫生学专业等专业类别的核心课程或专业选修课。当然,民意调查不仅仅是一种理论体系,由于它的实证性,它更多的表现为是一种实操手册。因此,谈论民意调查,不是要脱离实际场景,不是要对调查数字或某个概念进行夸夸其谈,而是要对操作流程、实施步骤和每个细节有着深刻的了解和把握,从而才能对数据本身产生深刻的理解。02. AZ法医式审计
2021年9月24日下午4点,美国亚利桑那州(AZ)参议院公布了对2020年该州马里科帕县(全美第二大选区)大选结果的审计报告——其实,这个审计报告一直受到美国共和党和民主党的高度密切关注。因为,这个报告不仅反映了美国建国以来最大规模的一次对选举结果进行法医式审计的评估;而且,这个审计结果将对2020年的选举结果作出客观评价,从而揭示和说明2020年选举结果的正义性和合法性。然而,当这个审计报告刚一公布,方舟子在第一时间就在微博上发出幸灾乐祸的冷嘲热讽,认为亚利桑那州参议院推动此次法医式审计的结果,反而让川普减少了261张选票,而拜登的得票则增加了99张,由此他暗示,此次亚利桑那州的法医式审计就是共和党为了骗取川粉的捐款而进行的一个阴谋,其对2020年的选举结果实际上没有什么影响。与此同时,Eric也很快发表了他的博文《啼笑皆非的大选舞弊调查最新结论》。他在文章中说:“这次重新计票的结果,扩大了拜登的胜利。这一大耳贴子的回响,一直从美国南部传到了美加边境上。”然而,无论是方舟子还是Eric,似乎都有些过早地或过分地显得得意忘形或忘乎所以了,因为,他们的这种自鸣得意和对政治对手阵营的嘲讽,很快就遭到了专业人士的打脸——在专业人士看来,方舟子和Eric的微博和博文反而都暴露出他们对民调专业的无知。一位在数据挖掘方面的大咖——老蛮站出来说话了,他说,那些对民调没有专业知识的人,只能看到审计报告中的表2内容,而看不懂审计报告中的表3内容。因为,当表3中的数据被正式确认和剔除时,表2中的所有数据及其统计结果将不复存在,这就是民调中常讲的“有效样本”(valid sample)与“无效样本”(invalid sample)的区别,以及对统计结果的影响。在这里,方舟子和Eric所犯的错误,都是把亚利桑那州目前所获得的选票都当作了有效选票,他们只关注到了机器点票与人工点票这两种计数方式的结果差异,而根本没有意识到在现有的选票中却包含了大量的无效选票。如果这些无效选票一旦被剔除,那么,进入统计过程的选票总数就会发生变化,统计结果也将随之改变。03. 发现存疑票5.33万
那么,亚利桑那州的法医式审计报告能否颠覆2020年的选举结果吗?关键在于审计报告中表3的内容,在这里,报告中一共列出了22种不合格或存疑的选票类型,存疑选票总数为53304张。见下表。
https://www.azsenaterepublicans.com/cyber-ninjas-reporthttps://c692f527-da75-4c86-b5d1-8b3d5d4d5b43.filesusr.com/ugd/2f3470_d36cb5eaca56435d84171b4fe7ee6919.pdf具体来说,超过1000张以上的问题选票类型,主要包括以下8种:
1、从亚利桑那州以外的地址收到的邮寄选票:23344张;2、选民提交的邮寄选票较其收到的邮寄选票多出的数量:9041张;7、选举前29天搬出亚利桑那州的居民选票:2081张;在这里,这8类问题选票合计为49718张,占整个问题选票总数的93.27%,已足以说明问题存在的严重性。因为,按照2020年亚利桑那州大选认证的结果,拜登比川普只多获得10457张选票,而此次法医式审计,却发现了53304张选票是有问题的。如果假定通过最终的选票真实性核查筛选,有一半的选票是真的存在问题需要剔除,那么,即使剔除26652张无效选票后,川普在亚利桑那州还是可以多获得26652张有效选票,他的胜选就是肯定的了。那么,方舟子和Eric是不是因为不愿意看到这样的审计结果,而要故意去胡说八道吗?显然,我们不能做这样的恶意猜测,我们只能推断他们对民调专业的无知。一般来说,但凡在民调行业待过的人都知道,实施一个民调项目,大约需要经过四个阶段:研究方案设计阶段、数据采集阶段、数据处理阶段、数据分析阶段。而其中,最关键的就是数据处理阶段。因为,只有保证数据的真实性和完整性,统计结果和分析结论才有意义,否则就是一堆数据垃圾,甚至会误导读者。问题在于,如何保证数据的真实性和完整性,目前,全世界所有的民调机构都会制定一套复杂严格的质量控制标准和流程——比如ICC/ESOMAR(欧洲市场调查协会)的行业标准和规范是,对原始问卷或采集到的数据进行真实性复核(抽查率一般为30%左右),就是数据处理阶段必须经过的第一道程序。在这个程序里,真实性复核常用的方法有三个:1、抽样框比对,即拿着被访者的基本信息与抽样框里的资料进行比对,检验此人是否符合抽样框里对被访者资格的界定;2、敲门回访,即按照问卷里保留的联系方式或进行随机抽样,上门进行当面核实,包括本人是否接受过访问,他对某些问题的回答,从而验证问卷的真实性;3、电话回访,即通过CATI系统里的抽样框,用电话联系到被访者,然后询问其是否接受过调查,当时是如何回答某些问题的,等等。只有经过真实性核查,这些有效问卷上的信息才能进入到下一个程序——数据的编码录入,逻辑甄错、清洗处理,并最终生成原始数据库,而那些无效问卷及其信息将在这个阶段被完全彻底地清除干净。在此次亚利桑那州的法医式审计中,被州参议院聘请的第三方公司是“网络忍者”公司(Cyber Ninjas)。为了核查选票数据的真实性,他们这次采用的核查方法是“抽样框比对方法”。为了堵上和反击那些左派媒体对他们资质和能力的怀疑,“网络忍者”将所有的核查过程进行24小时的视频监控并实行公开,实际上,他们也就是通过此次法医式审计,将民调过程中的数据处理流程做了一次公开课的演示。可惜,方舟子和Eric都没有看懂,他们并没有理解民调中的一个重要原则,即:不是被采集到的数据,就都是有效数据,从而都可以被不加区分和限制地放入到统计过程之中,而是,数据分析师必须对无效问卷或数据进行剔除,从而保证数据的清洁和质量。所以,当审计报告中的表3已经揭示出大量虚假数据时,方舟子和Eric还在继续相信表2中的数据和统计结果,这只能说明他们对民调专业的无知。至于为什么审计报告这次没有公布经过数据清洗之后的统计结果,那是因为,在此次法医式审计开始之前,共和党与民主党达成了此次不对有问题选票的签名进行核实的协定。从而导致核查人员目前还无法确定在那53304张问题选票中,究竟需要剔除多少张不合格的选票?但是,随着审计报告的公布,州参议院即将进入到对这些有问题选票的签名进行复核的阶段,那时,真正的选举结果就会呼之欲出了。04. 总结
值得提出的是,在此次亚利桑那州参议院审计报告发布之前,该州前议员候选人Liz Harris组织了一个由数百人组成的志愿者队伍,他们对马里科帕县的11708户家庭进行了敲门回访。其中,有4570人回答了问题,回访成功率为39.03%。通过这个敲门回访,他们获得了大量的一手数据,于是,他们经过统计分析,写出了一个《敲门验票报告》(canvass report),并放到了网上。在这个报告中,他们指出了一些事实,也明确质疑官方已认证的选举数据存在着严重的失真问题。总之,民调的价值和意义就在于通过真实的数据来揭示和反映民意,而想获得真实的数据,就必须清除掉那些无效问卷或数据。尽量将人为的干扰因素降到最低点。在这个过程中,需要数据分析师和研究者具备清醒的数据质量意识,以及掌握有效的数据清理方法和经验技巧。从而才能为后期的研究分析和决策提供干净的原始数据库,并得出有意义的研究结论;相反,仅仅为了某个立场而对数据使用信口开河和信口雌黄,则是坚决要不得的学术歪风。(文章首发陌上美国电报,版权归陌上美国和作者所有,未经许可转载将被追究法律责任。)
https://twitter.com/MoshangUsa